基于变压器的语言模型利用注意机制在几乎所有自然语言处理(NLP)任务中进行大量绩效改进。在其他几个领域也广泛研究了类似的关注结构。尽管注意力机制可显着增强模型的性能,但其二次复杂性阻止了长序列的有效处理。最近的工作着重于消除计算效率低下的缺点,并表明基于变压器的模型仍然可以在没有注意力层的情况下达到竞争结果。一项开创性的研究提出了FNET,该研究将注意力层取代了变压器编码器体系结构中的傅立叶变换(FT)。 FNET通过消除注意机制的计算负担来加速训练过程,在加速训练过程的同时,实现了有关原始变压器编码器模型的竞争性能。但是,FNET模型忽略了FT的基本特性,可以利用经典信号处理,以进一步提高模型效率。我们提出了不同的方法,以有效地部署FT在变压器编码器模型中。我们提出的架构具有较少的模型参数,较短的培训时间,较少的内存使用情况以及一些额外的性能改进。我们通过对共同基准的广泛实验来证明这些改进。
translated by 谷歌翻译
We investigate algorithmic progress in image classification on ImageNet, perhaps the most well-known test bed for computer vision. We estimate a model, informed by work on neural scaling laws, and infer a decomposition of progress into the scaling of compute, data, and algorithms. Using Shapley values to attribute performance improvements, we find that algorithmic improvements have been roughly as important as the scaling of compute for progress computer vision. Our estimates indicate that algorithmic innovations mostly take the form of compute-augmenting algorithmic advances (which enable researchers to get better performance from less compute), not data-augmenting algorithmic advances. We find that compute-augmenting algorithmic advances are made at a pace more than twice as fast as the rate usually associated with Moore's law. In particular, we estimate that compute-augmenting innovations halve compute requirements every nine months (95\% confidence interval: 4 to 25 months).
translated by 谷歌翻译
自动图像分析中的不确定性定量在许多应用中高度满足。通常,分类或细分中的机器学习模型仅用于提供二进制答案。但是,量化模型的不确定性可能在主动学习或机器人类互动中起关键作用。当使用基于深度学习的模型时,不确定性量化尤其困难,这是许多成像应用中最新的。当前的不确定性量化方法在高维实际问题中不能很好地扩展。可扩展的解决方案通常依赖于具有不同随机种子的相同模型的推理或训练集合过程中的经典技术,以获得后验分布。在本文中,我们表明这些方法无法近似分类概率。相反,我们提出了一个可扩展和直观的框架来校准深度学习模型的合奏,以产生近似分类概率的不确定性定量测量。在看不见的测试数据上,我们证明了与标准方法进行比较时的校准,灵敏度(三种情况中的两种)以及精度。我们进一步激发了我们在积极学习中的方法的用法,创建了伪标签,以从未标记的图像和人机合作中学习。
translated by 谷歌翻译
随机且未知的散射介质背后的对象的分类为计算成像和机器视野字段的具有挑战性的任务。最新的基于深度学习的方法证明了使用图像传感器收集的扩散器延伸模式对对象进行分类。这些方法需要使用在数字计算机上运行的深神经网络进行相对大规模的计算。在这里,我们提出了一个全光处理器,使用单个像素检测到的宽带照明通过未知的随机相扩散器直接对未知对象进行分类。使用深度学习进行了优化的一组传播衍射层,形成了一个物理网络,该物理网络全面地绘制了随机扩散器后面输入对象的空间信息,以进入通过单个像素在输出平面上检测到的输出光的功率谱,衍射网络。我们在数值上使用宽带辐射通过随机新扩散器对未知手写数字进行分类,在训练阶段从未使用过,并实现了88.53%的盲目测试准确性。这种通过随机扩散器的单像素全光对象分类系统基于被动衍射层,该层可以通过简单地缩放与波长范围的衍射范围来缩放衍射特征,从而在电磁光谱的任何部分中运行,并且可以在电磁光谱的任何部分工作。这些结果在例如生物医学成像,安全性,机器人技术和自动驾驶中具有各种潜在的应用。
translated by 谷歌翻译
光子计数CT(PCCT)通过更好的空间和能量分辨率提供了改进的诊断性能,但是开发可以处理这些大数据集的高质量图像重建方法是具有挑战性的。基于模型的解决方案结合了物理采集的模型,以重建更准确的图像,但取决于准确的前向操作员,并在寻找良好的正则化方面遇到困难。另一种方法是深度学习的重建,这在CT中表现出了巨大的希望。但是,完全数据驱动的解决方案通常需要大量的培训数据,并且缺乏解释性。为了结合两种方法的好处,同时最大程度地降低了各自的缺点,希望开发重建算法,以结合基于模型和数据驱动的方法。在这项工作中,我们基于展开/展开的迭代网络提出了一种新颖的深度学习解决方案,用于PCCT中的材料分解。我们评估了两种情况:一种学识渊博的后处理,隐含地利用了模型知识,以及一种学到的梯度,该梯度在体系结构中具有明确的基于模型的组件。借助我们提出的技术,我们解决了一个具有挑战性的PCCT模拟情况:低剂量,碘对比度和很小的训练样品支持的腹部成像中的三材料分解。在这种情况下,我们的方法的表现优于最大似然估计,一种变异方法以及一个完整的网络。
translated by 谷歌翻译
这项研究重点是探索局部可解释性方法来解释时间序列聚类模型。许多最先进的聚类模型无法直接解释。为了提供这些聚类算法的解释,我们训练分类模型以估计群集标签。然后,我们使用可解释性方法来解释分类模型的决策。这些解释用于获得对聚类模型的见解。我们执行一项详细的数值研究,以测试多个数据集,聚类模型和分类模型上所提出的方法。结果的分析表明,所提出的方法可用于解释时间序列聚类模型,特别是当基础分类模型准确时。最后,我们对结果进行了详细的分析,讨论了如何在现实生活中使用我们的方法。
translated by 谷歌翻译
在不利天气条件下的图像恢复对各种计算机视觉应用引起了重大兴趣。最近的成功方法取决于深度神经网络架构设计(例如,具有视觉变压器)的当前进展。由最新的条件生成模型取得的最新进展的动机,我们提出了一种基于贴片的图像恢复算法,基于脱氧扩散概率模型。我们的基于贴片的扩散建模方法可以通过使用指导的DeNoising过程进行尺寸 - 不足的图像恢复,并在推理过程中对重叠贴片进行平滑的噪声估计。我们在基准数据集上经验评估了我们的模型,以进行图像,混合的降低和飞行以及去除雨滴的去除。我们展示了我们在特定天气和多天气图像恢复上实现最先进的表演的方法,并在质量上表现出对现实世界测试图像的强烈概括。
translated by 谷歌翻译
我们检查了通过直播(OTA)聚合的联合学习(FL),移动用户(MUS)旨在借助聚合本地梯度的参数服务器(PS)在全球模型上达成共识。在OTA FL中,MUS在每个训练回合中使用本地数据训练他们的模型,并以未编码的方式使用相同的频带同时传输其梯度。根据超级梯度的接收信号,PS执行全局模型更新。尽管OTA FL的通信成本显着降低,但它容易受到不利的通道影响和噪声的影响。在接收器侧采用多个天线可以减少这些效果,但是对于远离PS的用户来说,路径损失仍然是一个限制因素。为了改善此问题,在本文中,我们提出了一种基于无线的层次FL方案,该方案使用中间服务器(ISS)在MUS更密集的区域形成簇。我们的计划利用OTA群集聚合与MUS与其相应的IS进行交流,而OTA全球聚合从ISS到PS。我们提出了针对所提出算法的收敛分析,并通过对使用ISS的衍生分析表达式和实验结果的数值评估显示,与单独使用较少的传输功率相比,利用ISS的结果比单独的OTA FL具有更快的收敛性和更好的性能。我们还使用不同数量的群集迭代以及不同数据集和数据分布来验证性能的结果。我们得出的结论是,群集聚集的最佳选择取决于MUS和集群之间的数据分布。
translated by 谷歌翻译
人们对人类情感状态的稀疏代表性格式的需求日益增长,这些格式可以在有限的计算记忆资源的情况下使用。我们探讨了在潜在矢量空间中代表神经数据对情绪刺激的响应是否可以用于预测情绪状态,并生成参与者和/或情绪特定于情绪的合成EEG数据。我们提出了一个有条件的基于变异自动编码器的框架EEG2VEC,以从脑电图数据中学习生成歧视性表示。关于情感脑电图记录数据集的实验结果表明,我们的模型适用于无监督的脑电图建模,基于潜在表示的三个不同情绪类别(正,中性,负)的分类,可实现68.49%的稳健性能,并产生的合成eeg序列共同存在于真实的脑电图数据输入到特别重建低频信号组件。我们的工作推进了情感脑电图表示可以在例如生成人工(标签)训练数据或减轻手动功能提取的领域,并为记忆约束的边缘计算应用程序提供效率。
translated by 谷歌翻译
灵活地处理各种机器人动作语言翻译任务是机器人和人之间自然相互作用的必不可少的要求。以前的方法需要更改推理过程中每个任务的模型体系结构的配置,这破坏了多任务学习的前提。在这项工作中,我们提出了配对的门控自动编码器(PGAE),以在桌面对象操纵方案中的机器人动作和语言描述之间进行灵活翻译。我们通过将每个动作与包含信号通知翻译方向的信号的适当描述配对,以端到端的方式训练模型。在推断期间,我们的模型可以从动作转化为语言,反之亦然,根据给定的语言信号。此外,为了选择使用预算语言模型作为语言编码器,我们的模型有可能识别看不见的自然语言输入。我们模型的另一个功能是,它可以通过使用机器人演示来识别和模仿另一个代理的动作。该实验结果突出了我们方法的灵活双向翻译能力,同时又可以推广到相反剂的作用。
translated by 谷歌翻译